在前一天講了什麼是 RAG 與詞嵌入模型,今天就來講專門用來儲存詞向量的資料庫,名為向量資料庫的 Qdrant。
在 2021 年 4 月開始在 Github 中活躍,直到 2022、2023 ChatGPT的出現,活躍了大家對於「深度學習」相關的相關研究,而 RAG 的出現,也活躍了向量資料庫的相關應用。
向量資料庫,如其名,專門用來儲存向量的資料庫,與一般的資料庫不同的是,一般資料庫儲存的資料可為 char, int, datetime 等等資料格式,
而向量資料庫只能拿來儲存浮點數,向量資料庫還具有額外的功能,可供高效快速地查詢 N 維空間中的最近鄰。通常採用 k-最近鄰 (k-NN) 索引技術,並使用 Hierarchical Navigable Small World (HNSW) 和 Inverted File Index (IVF) 之類的演算法進行建置。向量資料庫還提供額外功能,例如資料管理、容錯、身分驗證和存取控制,以及查詢引擎。
向量資料庫,也不是只有 Qdrant 可以用,也是有 Milvus 與 Pinecone 等等的,只是 Qdrant 一來使用方便,且又是免費的,所以在眾多的選擇中,使用了 Qdrant。